Projekt z Analizy Danych - Siłownia

Aleksandra Ochocińska

Mateusz Wasiewski

Adam Sienkiewicz

Wprowadzenie

1. Wstęp

Celem projektu jest przeprowadzenie analizy danych na zbiorze Siłownia. Jest to zestaw danych zawierający szczegółowy przegląd rutynowych ćwiczeń wykonywanych przez członków siłowni, a także ich atrybutów fizycznych i wskaźników sprawności. Proces analizy danych będzie składał się z kilku etapów, które kolejno obejmują: przygotowanie danych (data wrangling), stworzenie wizualizacji oraz statystyk opisowych, wnioskowanie statystyczne, a na końcu podsumowanie całej pracy.

Data Wrangling obejmie identyfikację obserwacji odstających, analizę brakujących danych, imputację braków oraz walidację danych.

Następnie, w etapie wizualizacji i statystyk opisowych, zostanie zaprezentowany szeroki zakres analiz, mających na celu wydobycie jak najbardziej użytecznych informacji z dostępnych danych.

Wnioskowanie statystyczne będzie polegało na przeprowadzaniu testów statystycznych oraz analizie zależności między zmiennymi, co pozwoli na wyciąganie uogólnionych wniosków dotyczących całej populacji na podstawie dostępnej próby danych.

Ostatnią częścią projektu będzie podsumowanie, w którym zostaną przedstawione najważniejsze wnioski i informacje wynikające z przeprowadzonej analizy.

2. Zmienne w zbiorze danych

Age - wiek użytkownika siłowni.

Gender - płeć użytkownika siłowni.

Weight (kg)- waga użytkownika siłowni w kilogramach.

Height (m) - wzrost użytkownika siłowni w metrach.

Max_BPM - maksymalne tętno podczas sesji treningowych.

Avg_BPM - średnie tętno podczas sesji treningowych.

Resting_BPM - spoczynkowe tętno przed treningiem.

Session_Duration - czas trwania każdej sesji treningowej w godzinach.

Calories_Burned - całkowita liczba kalorii spalonych podczas każdej sesji.

Workout_Type - rodzaj wykonanego treningu (np. kardio, siłowy, joga, HIIT).

Fat_Percentage -procent tkanki tłuszczowej.

Water_Intake - spożycie wody podczas treningu w litrach.

Workout_Frequency - liczba sesji treningowych w tygodniu.

Experience_Level - poziom doświadczenia, od początkującego (1) do eksperta (3).

BMI - wskaźnik masy ciała, obliczany na podstawie wzrostu i wagi.

3. Struktura danych

Nazwa zbioru danych silownia
Liczba wierszy 973
Liczba kolumn 15
Kolumny typu tekstowego 2
Kolumny typu liczbowego 13

Kolumny typu tekstowego

Kolumna Brakujące wartości Kompletność Min Max Puste Unikalne wartości Whitespace
Płeć 0 1.00 4 6 0 2 0
Typ treningu 150 0.85 4 8 0 4 0

Kolumny typu liczbowego

Kolumna Brakujące wartości Kompletność Średnia Odchylenie standardowe 0 Percentyl 25 Percentyl 50 Percentyl 75 Percentyl 100 Percentyl Histogram
Wiek 100 0.90 38.63 12.27 18.00 28.00 39.00 50.00 59.00 ▇▆▆▇▇
Waga 0 1.00 73.85 21.21 40.00 58.10 70.00 86.00 129.90 ▅▇▅▂▂
Wzrost 0 1.00 1.72 0.13 1.50 1.62 1.71 1.80 2.00 ▅▇▇▃▃
Maksymalne tętno 0 1.00 179.88 11.53 160.00 170.00 180.00 190.00 199.00 ▇▇▇▇▇
Średnie tętno 0 1.00 143.77 14.35 120.00 131.00 143.00 156.00 169.00 ▇▇▆▆▆
Spoczynkowe tętno 0 1.00 62.22 7.33 50.00 56.00 62.00 68.00 74.00 ▇▆▇▇▇
Czas trwania sesji 0 1.00 1.26 0.34 0.50 1.04 1.26 1.46 2.00 ▂▅▇▃▂
Spalone kalorie 0 1.00 905.42 272.64 303.00 720.00 893.00 1076.00 1783.00 ▃▇▇▂▁
Procent tkanki tłuszczowej 0 1.00 24.98 6.26 10.00 21.30 26.20 29.30 35.00 ▂▂▅▇▅
Spożycie wody 0 1.00 2.63 0.60 1.50 2.20 2.60 3.10 3.70 ▃▆▇▃▆
Częstotliwość treningów 0 1.00 3.32 0.91 2.00 3.00 3.00 4.00 5.00 ▅▇▁▆▂
Poziom doświadczenia 0 1.00 1.81 0.74 1.00 1.00 2.00 2.00 3.00 ▇▁▇▁▃
BMI 150 0.85 24.82 6.60 12.32 20.10 23.94 28.45 47.72 ▃▇▅▁▁

4. Wstępne przygotowanie danych

Przed rozpocząciem procesu Data Wranglingu pobraliśmy i zainstalowaliśmy wszystkie niezbędne pakiety potrzebne do naszej analizy. Kolejnym krokiem była zmiana nazw kolumn z :

  • Weight (kg) na Weight_kg

  • Height (m) na Height_m

  • Session_Duration (hours) na Session_Duration_hours

  • Water_Intake (liters) na Water_Intake_liters

  • Workout_Frequency (days/week) na Workout_Frequency_daysweek

Data wrangling

Data wrangling jest to proces polegający na przekształceniu nieuporządkowanego zbioru danych w użyteczny oraz uporządkowany. To złożone działanie, które zaczyna się od zrozumienia struktury danych i identyfikacji problemów, a kończy na stworzeniu uporządkowanego zbioru gotowego do dalszej analizy.

Kluczowymi etapami tego procesu będzie:

  • poznanie obserwacji odstających, czyli danych które w znaczący sposób różnią się od reszty zbioru

  • przeanalizowanie braków danych, w którym poznamy ilość braków, ich rozmieszczenie, a także czy występuje współzależność między nimi

  • imputacja braków danych, polegająca na zastąpieniu braków za pomocą metod imputacji

  • walidacja danych, czyli sprawdzenie czy dane są wolne od błędów

1. Obserwacje odstające

Obserwacje odstające to dane, które znacząco różnią się od reszty zbioru, co może wynikać z błędów pomiaru, specyfiki badanego zjawiska lub innych nietypowych czynników. W celu poznania obserwacji odstających w naszym zbiorze danych zastowaliśmy wykres ramkowy (box plot), pozwalający na wizualne wykrycie wartości wykraczających poza typowy zakres danych.

Wiek

Zmienna Wiek nie posiada obserwacji odstających.

Waga

Zmienna Waga posiada odstające obserwacje (górne outliery), czyli obserwacje, które znajdują się o więcej niż 1,5 rozstępu ćwiartkowego powyżej trzeciego kwartyla.

Wzrost

Zmienna Wzrost nie ma obserwacji odstających.

Maksymalne tętno

Zmienna Maksymalne tętno nie posiada obserwacji odstających.

Średnie tętno

Zmienna Średnie tętno nie ma obserwacji odstających.

Tętno spoczynkowe

Zmienna Tętno spoczynkowe nie ma obserwacji odstających.

Czas trwania sesji

Zmienna Czas trwania sesji nie posiada obserwacji odstających.

Spalone kalorie

Zmienna Spalone kalorie posiada górne outliery, czyli obserwacje, które znajdują się o więcej niż 1,5 rozstępu ćwiartkowego powyżej trzeciego kwartyla.

Procent tkanki tłuszczowej

Zmienna Procent tkanki tłuszczowej nie ma obserwacji odstających.

Ilość wypitej wody

Zmienna Ilość wypitej wody nie posiada obserwacji odstających.

Częstotliwość treningów

Zmienna Częstotliwość treningów nie posiada obserwacji odstających.

BMI

W przypadku zmiennej BMI występują górne outliery, czyli obserwacje, które znajdują się o więcej niż 1,5 rozstępu ćwiartkowego powyżej trzeciego kwartyla.

Podsumowanie

Za pomocą wykresu ramkowego wykazano, że w przypadku zmiennych Waga, Spalone kalorie oraz BMI występują górne outliery,czyli obserwacje, które znajdują się o więcej niż 1,5 rozstępu ćwiartkowego powyżej trzeciego kwartyla. Żadna zmienna natomiast nie posiada ekstremalnych obserwacji odstających.

2. Analiza braków danych

Analiza braków danych jest kluczowym etapem przygotowania zbioru danych do dalszej analizy. W ramach tego procesu określimy liczbę braków w zbiorze, przeanalizujemy ich rozmieszczenie oraz sprawdzimy, czy występują korelacje między brakami w różnych zmiennych. Wyniki tej analizy posłużą jako podstawa do podjęcia decyzji o dalszym postępowaniu z brakującymi danymi.

Wstępna analiza braków danych

Sprawdzenie gdzie występują braki danych i procentowo ile ich jest

W całej bazie danych brakuje 2,7% danych.

Braki danych występują w kolumnie Typ treningu, Wiek oraz BMI.

Ile braków jest w poszczególnych kolumnach

Kolumna Wiek ma 100 braków.

Kolumna Typ treningu ma 150 braków.

Kolumna BMI ma 150 braków.

Występowanie braków w wierszach

Liczba NA w wierszu Liczba wierszy Procent wszystkich wierszy
0 631 64,85%
1 287 29,50%
2 52 5,34%
3 3 0,31%

631 wierszy ma 0 NA

287 wierszy ma 1 NA

  • 115 w Typ treningu

  • 106 w BMI

  • 66 w Wiek

52 wiersze ma 2 NA

  • 21 wierszy w Typ treningu i BMI

  • 20 wierszy w Wiek i BMI

  • 11 w Wiek i Typ treningu

3 wiersze mają 3 NA

Sprawdzanie korelacji między brakami danych

1. Wiek i BMI

Braki w kolumnie BMI są całkowicie niezależne od wartości w kolumnie Wiek.

Z kolei braki w kolumnie Wiek są raczej niezależne od wartości BMI, choć zauważono nieco większą liczbę braków w przypadku niższych wartości BMI.

2. Typ treningu i BMI

Braki w kolumnie BMI są całkowicie niezależne od wartości w kolumnie Typ treningu.

Z kolei braki w kolumnie Typ treningu są raczej niezależne od wartości BMI, choć zauważono nieco większą liczbę braków w przypadku niższych wartości BMI.

3. Typ treningu i Wiek

Braki w obu kolumnach są całkowicie niezależne od siebie.

3. Imputacja braków danych

W procesie analizy braków danych napotkaliśmy na brakujące wartości (NA) w kolumnach Wiek, BMI oraz Typ treningu. Aby zapewnić spójność i pełność danych, postanowiliśmy przeprowadzić imputację braków, czyli zastąpienie brakujących wartości odpowiednimi danymi.

Kolumna BMI

Braki w kolumnie postanowaliśmy zastąpić za pomocą wzoru na BMI.

\[ BMI = \frac{waga}{wzrost^2} \]

silownia$BMI <- ifelse(
  is.na(silownia$BMI),  
  silownia$Weight_kg / (silownia$Height_m^2),  
  silownia$BMI )

Wybraliśmy wzór na BMI jako metodę uzupełniania braków, ponieważ opiera się on na dwóch kluczowych zmiennych: wadze i wzroście, które w naszym zbiorze danych są kompletne. Dzięki temu obliczenie BMI za pomocą wzrou jest najbardziej rzetelną metodą imputacji, gdyż wykorzystuje dostępne, pełne informacje do oszacowania brakujących wartości.

Kolumna Typ treningu i Wiek

W przypadku kolumny Typ treningu i Wiek zdecydowaliśmy przeprowadzić imputację na kilka sposób, a następnie wybrać najlepszą możliwość.

1. Imputacja metodą k-Nearest Neighbors (kNN)

silownia_kNN <- kNN(silownia, k = 3)

2. Imputacja z pakietem Mice

if (!is.factor(silownia$Workout_Type)) {
  silownia$Workout_Type <- factor(silownia$Workout_Type, levels = c("Yoga", "Cardio", "HIIT", "Strength"))
}

metody <- make.method(silownia)

metody["Age"] <- "pmm"
metody["Workout_Type"] <- "polyreg"
metody["BMI"] <- "" 

pred_mat <- make.predictorMatrix(silownia)
pred_mat["BMI", ] <- 0 # Wyłącz imputację dla BMI
pred_mat[, "BMI"] <- 1 # BMI jako predyktor dla innych kolumn

silownia_imp <- mice(silownia, m = 5, method = metody, predictorMatrix = pred_mat, seed = 123)

lm_imp <- with(silownia_imp, lm(BMI ~ Weight_kg + Gender))
lm_pooled <- pool(lm_imp)

summary(lm_pooled, conf.int = TRUE, conf.level = 0.95)

stripplot(silownia_imp, BMI ~ Weight_kg | .imp, pch = 20, cex = 2)

silownia_mice <- complete(silownia_imp, action = 1)

3. Imputacja hot-deck

silownia_hotdeck <- hotdeck(silownia)

4. Imputacja RPART

silownia_rpart  <- silownia  %>%
  mutate(Workout_Type = case_when(
    Workout_Type == "Yoga" ~ 1,
    Workout_Type == "Cardio" ~ 2,
    Workout_Type == "HIIT" ~ 3,
    Workout_Type == "Strength" ~ 4,
    TRUE ~ as.numeric(Workout_Type) 
  ))

silownia_rpart <- silownia_rpart %>%
  mutate(Gender = case_when(
    Gender == "Male" ~ 1,
    Gender == "Female" ~ 2,
    TRUE ~ as.numeric(Gender) 
  ))


drzewo_decyzyjne1 <- rpart(Workout_Type ~ Age + BMI + Max_BPM + Weight_kg + Height_m + Avg_BPM + Resting_BPM + 
                             Session_Duration_hours + Calories_Burned + 
                             Fat_Percentage + Water_Intake_liters + 
                             Workout_Frequency_daysweek + Gender + Experience_Level, data = silownia_rpart, method = "anova", na.action = na.exclude)

silownia_rpart$Workout_Type[is.na(silownia_rpart$Workout_Type)] <- predict(drzewo_decyzyjne1, newdata = silownia_rpart[is.na(silownia_rpart$Workout_Type), ])


drzewo_decyzyjne2 <- rpart(Age ~ BMI + Workout_Type + Gender + Max_BPM + Weight_kg + Height_m + Avg_BPM + Resting_BPM + 
                             Session_Duration_hours + Calories_Burned + 
                             Fat_Percentage + Water_Intake_liters + 
                             Workout_Frequency_daysweek + Experience_Level, data = silownia_rpart, method = "anova", na.action = na.exclude)
silownia_rpart$Age[is.na(silownia_rpart$Age)] <- predict(drzewo_decyzyjne2, newdata = silownia_rpart[is.na(silownia_rpart$Age), ])

Wybór metody

Zdecydowaliśmy się zastąpić braki danych występujące w kolumnach Wiek i Typ treningu za pomocą metody hot-deck, ponieważ jest to podejście, które pozwala na imputację brakujących wartości w sposób uwzględniający podobieństwo do istniejących danych. Dzięki tej metodzie wartości brakujące są zastępowane rzeczywistymi danymi z innych obserwacji o podobnych cechach,

4. Walidacja danych

Po zakończeniu procesu uzupełniania braków w naszych danych, kolejnym krokiem w przygotowywaniu ich do dalszej analizy jest ich walidacja. Ten etap pozwala sprawdzić czy dane, są wolne od błędów, niespójności i nieścisłości, które mogłyby negatywnie wpłynąć na dalszą pracę z nimi. Walidacja danych obejmuje zarówno sprawdzenie poprawności logicznej, strukturalnej, jak i identyfikację potencjalnych anomalii czy niezgodności z przyjętymi założeniami.

Wiek

Wartości w kolumnie Wiek powinny być liczbami całkowitymi mieszczącymi się w przedziale od 0 do 110 włącznie.

Płeć

Kolumna Płeć przyjmuje wartość Female albo Male.

Waga

Wartości w kolumnie Waga powinny być liczbami mieszczącymi się w przedziale od 40 kg do 140 kg włącznie.

Wzrost

W kolumnie Wzrost powinny znajdować się wartości liczbowe z zakresu od 1.30 m do 2.15 m włącznie.

Maksymalne tętno

Kolumna Maksymalne tętno musi posiadać wartości, które są liczbami z zakresu od 110 do 210 włącznie.

Średnie tętno

Wartości w kolumnie Średnie tętno powinny być liczbami mieszczącymi się w przedziale od 80 do 180 włącznie.

Spoczynkowe tętno

W kolumnie Spoczynkowe tętno powinny znajdować się wartości liczbowe z zakresu od 45 do 130 włącznie.

Czas trwania sesji

Wartości w kolumnie Czas trwania sesji powinny być dodatnimi liczbami nieprzekraczającymi 2.

Spalone kalorie

Wartości powinny być dodatnimi liczbami nieprzekraczającymi 2000.

Typ treningu

Kolumna Typ treningu powinna zawierać tylko takie wartości jak: Yoga, Cardio, HIIT oraz Strength.

Procent tkanki tłuszczowej

Wartości w kolumnie Procent tkanki tłuszczowej powinny być liczbami dodatnimi nieprzekraczającymi 50.

Ilość wypitej wody

Wartości powinny być liczbami dodatnimi nieprzekraczającymi 4.

Częstotliwość treningów

Kolumna Czętotliwość treningów powinna zawierać tylko takie wartości jak: 0, 1, 2, 3, 4, 5, 6, 7.

Poziom doświadczenia

Kolumna Poziom doświadczenia powinna zawierać tylko takie wartości jak: 0, 1, 2, 3.

BMI

Wartości w kolumnie BMI powinny być dodatnimi liczbami mieszczącymi się w przedziale od 10 do 60 włącznie, a ich różnica względem wartości obliczonej jako Weight_kg/Height_m^2 powinna być mniejsza niż 0.1.”

Podsumowanie

W naszym zbiorze danych nie wystąpiły żadne błędy, więc jest on gotowy do przeprowadzenie wizualizacji oraz dalszej analizy.

Wizualizacja danych i analiza opisowa

Po zakończeniu procesu data wranglingu, nasze dane są w pełni oczyszczone, uporządkowane i gotowe do dalszej analizy. Na etapie wizualizacji oraz statystyk opisowych skupimy się na przedstawieniu szerokiego wachlarza analiz, które pozwolą na wydobycie najbardziej wartościowych i interesujących informacji z dostępnych danych. Dzięki zastosowaniu różnorodnych technik wizualizacji, takich jak wykresy, diagramy, czy tabele zidentyfikujemy istotne wzorce, zależności oraz trendy.

Rozkład płci

Wykres pokazuje równomierny rozkład płci w analizowanym zbiorze danych. Widoczna jest zbliżona liczba kobiet i mężczyzn, z niewielką przewagą mężczyzn, około 500 osób w każdej grupie.

Rozkład wieku w zależności od płci

Wykres przedstawia rozkład wieku w zależności od podanej płci. Zauważyć można większy udział mężczyzn w grupie wiekowej 25-39 lat. Z kolei w grupie 40-55 lat przeważyła płeć żeńska.

Statystyki opisowe zmiennej wiek w zależności od płci

Płeć
Statystyka Kobiety Mężczyźni
Min 18 18
Max 59 59
Kwartyl dolny 27 28.5
Mediana 39 39
Kwartyl górny 50 49
Średnia 38.34 38.76
Odch. std. 12.47 12.05
IQR 23 20.5
Odchylenie ćwiartkowe 11.5 10.25
Odch. std. w % 0.33 0.31
Odch. ćwiartkowe w % 0.59 0.53
Skośność -0.08 -0.05
Kurtoza -1.28 -1.19

Zależność BMI od wieku

Wykres pokazuje, jakie wartości wskaźnika BMI osiągano dla danego wieku. Dodano także linię trendu, która została oszacowana na poziomie BMI = 25.

Statystyki opisowe zmiennej BMI w zależności od wieku

Wiek
Statystyka 18-29 29-39 39-49 49-59
Min 12.73 12.67 12.32 12.47
Max 45.14 48.43 49.84 47.72
Kwartyl dolny 20.34 20.65 19.69 19.67
Mediana 24.68 24.11 23.16 24.31
Kwartyl górny 29.02 29.6 26.64 28.97
Średnia 25.3 25.4 23.84 24.94
Odch. std. 6.51 6.79 6.41 6.79
IQR 8.69 8.95 6.95 9.3
Odchylenie ćwiartkowe 4.34 4.47 3.47 4.65
Odch. std. w % 0.13 0.11 0.11 0.11
Odch. ćwiartkowe w % 0.2 0.21 0.17 0.21
Skośność 0.62 0.84 1.06 0.63
Kurtoza 0.28 0.81 1.94 0.3

Na podstawie powyższych wyników można stwierdzić, że najwyższą średnią wartość BMI osiągnięto dla grupy wiekowej 18-29 lat, dla której największa jest też mediana BMI równa 24,96. Minimalna wartość BMI to 12,32 dla osób w wieku 39-49 lat, a maksymalna wynosi niespełna 50 dla tej samej grupy wiekowej. W grupie wiekowej 49-59 nastąpiło największe rozproszenie danych. Wyniosło ono 7,1. Rozstęp międzykwartylowy (IQR) osiąga wartości od 7,08 do 9,08, co wskazuje na stabilność w centralnej części rozkładu. Rozkład BMI jest lekko dodatnio skośny. Wartości Bmi większe od średniej są nieco bardziej rozproszone. Wartości kurtozy wskazują na to, że dane są bardziej rozproszone, a wyniki nie wykazują silnej koncentracji wokół średniej ani wielu skrajnych wartości.

Rozkład wagi w zależności od płci

Rozkład wagi u kobiet jest bardziej skoncentrowany w przedziale 50–70 kg, co wskazuje na mniejszą zmienność i większą jednolitość w populacji kobiet.

Rozkład wagi u mężczyzn jest szerszy, co oznacza większą zmienność. Wagi mężczyzn najczęściej mieszczą się w przedziale 70–90 kg, ale rozkład ma dłuższy ogon w kierunku wyższych wartości, sięgając ponad 120 kg.

Ogólnie, mężczyźni wykazują większe zróżnicowanie wag w porównaniu do kobiet, z tendencją do wyższych wartości wagi. Rozkłady są symetryczne, z wyraźnymi różnicami między średnimi i zakresami wag dla obu płci.

Statystyki opisowe zmiennej wagi w zależności od płci

Płeć
Statystyka Kobiety Mężczyźni
Min 40 45
Max 79.9 129.9
Kwartyl dolny 54.05 69.75
Mediana 61.35 85.3
Kwartyl górny 69.175 101.6
Średnia 60.94 85.53
Odch. std. 10.24 21.79
IQR 15.13 31.85
Odchylenie ćwiartkowe 7.56 15.92
Odch. std. w % 0.17 0.25
Odch. ćwiartkowe w % 0.25 0.37
Skośność -0.16 0.15
Kurtoza -0.81 -0.73

Waga kobiet waha się od 40 do 79,9 kg. Mediana wynosi 61,35 kg, a średnia 60,94 kg, co wskazuje na zbliżone wartości centralne. Rozstęp międzykwartylowy (IQR) wynosi 15,13, a odchylenie standardowe 10,24, co wskazuje na umiarkowaną zmienność wagi w tej grupie. Skośność (-0,16) wskazuje na lekko ujemny rozkład, co oznacza, że częściej występują wyższe wartości wagi, a kurtoza (-0,81) sugeruje spłaszczony rozkład.

Waga mężczyzn jest bardziej zróżnicowana i waha się od 45 do 129,9 kg. Mediana wynosi 85,3 kg, a średnia 85,53 kg, co oznacza, że większość wartości oscyluje wokół tego przedziału. Rozstęp międzykwartylowy (IQR) wynosi 31,85, a odchylenie standardowe 21,79, co wskazuje na większe zróżnicowanie wagi niż w przypadku kobiet. Skośność (0,15) sugeruje lekko dodatni rozkład, co oznacza, że częściej występują niższe wartości wagi, a kurtoza (-0,73) również wskazuje na spłaszczony rozkład.

Podsumowując, kobiety mają mniejsze zróżnicowanie wagi w porównaniu do mężczyzn, których wagi rozkładają się na szerszym przedziale. Mediana i średnia wagi są wyższe u mężczyzn. Rozkłady w obu grupach są lekko spłaszczone, ale różnią się kierunkiem skośności.

Czas trwania sesji a spalone kalorie

Statystyki opisowe dla spalonych kalorii w zależności od długości trwania sesji treningowej

Czas trwania sesji
Statystyka 0,5-1h 1-1,5h 1,5-2h
Min 303 576 837
Max 832 1385 1783
Kwartyl dolny 446 793 1134
Mediana 534.5 888 1240
Kwartyl górny 632 1005.5 1372.5
Średnia 540.77 902.47 1258.46
Odch. std. 115.7 150.64 187.41
IQR 186 212.5 238.5
Odchylenie ćwiartkowe 93 106.25 119.25
Odch. std. w % 0.21 0.17 0.15
Odch. ćwiartkowe w % 0.35 0.24 0.19
Skośność 0.18 0.32 0.34
Kurtoza -0.77 -0.37 -0.14

0,5–1 godz.: Liczba spalonych kalorii waha się od 303 do 832, z medianą 534,5 i średnią 540,77. Rozstęp międzykwartylowy (IQR) wynosi 186, co wskazuje na umiarkowaną zmienność w centralnej części rozkładu. Odchylenie standardowe wynosi 115,7, co oznacza niewielkie zróżnicowanie wartości. Rozkład jest lekko dodatnio skośny (0,18), co oznacza, że wartości wyższe od średniej pojawiają się rzadziej.

1–1,5 godz.: Liczba spalonych kalorii wzrasta, waha się od 576 do 1385, z medianą 888 i średnią 902,47. Rozstęp międzykwartylowy (IQR) wynosi 212,5, co oznacza większą zmienność niż w poprzedniej kategorii. Odchylenie standardowe to 150,64, co wskazuje na większe zróżnicowanie wyników. Skośność (0,32) jest nieco wyższa, co wskazuje na większą asymetrię w kierunku wyższych wartości.

1,5–2 godz.: Liczba spalonych kalorii jest najwyższa, od 837 do 1783, z medianą 1240 i średnią 1258,46. Rozstęp międzykwartylowy (IQR) wynosi 238,5, a odchylenie standardowe 187,41, co wskazuje na największą zmienność w tej grupie. Skośność (0,34) jest podobna do poprzedniej grupy, sugerując asymetrię w kierunku wyższych wartości.

Podsumowując, wraz ze wzrostem czasu trwania sesji rośnie liczba spalonych kalorii, zarówno pod względem wartości minimalnych, średnich, jak i maksymalnych. Jednocześnie wzrasta zmienność wyników (odchylenie standardowe i IQR), co sugeruje, że dłuższe sesje treningowe prowadzą do bardziej zróżnicowanych rezultatów w spalaniu kalorii. Rozkład w każdej kategorii jest lekko dodatnio skośny, z tendencją do większego spłaszczenia w miarę wydłużania sesji (kurtoza od -0,77 do -0,14).

Spalone kalorie a waga

Wykres przedstawia zależność między wagą a liczbą spalonych kalorii. Punkty danych pokazują dużą zmienność w liczbie spalonych kalorii wśród osób o podobnej wadze, jednak trend zaznaczony linią regresji sugeruje niewielką dodatnią korelację. Oznacza to, że osoby o wyższej wadze generalnie spalają więcej kalorii, choć zależność ta jest słaba. Rozrzut punktów wskazuje, że na liczbę spalonych kalorii mogą wpływać także inne czynniki, takie jak intensywność i rodzaj treningu.

Średnia liczba spalonych kalorii dla różnych typów treningu

Wykres pokazuje, że średnia liczba spalonych kalorii jest zbliżona dla wszystkich rodzajów treningów, przy czym HIIT i trening siłowy spalają nieco więcej kalorii niż joga i cardio.

Średnie spalone kalorie według płci i poziomu doświadczenia

Wykres przedstawia średnią liczbę spalonych kalorii w zależności od poziomu doświadczenia i płci. Wraz ze wzrostem poziomu doświadczenia (od 1 do 3) rośnie średnia liczba spalonych kalorii dla obu płci.

Mężczyźni spalają nieco więcej kalorii niż kobiety na każdym poziomie doświadczenia, przy czym różnica ta pozostaje niewielka. Na poziomie doświadczenia 3 różnica jest najbardziej widoczna, co może wskazywać na większą intensywność lub efektywność treningu u bardziej doświadczonych mężczyzn. Ogólnie trend pokazuje, że większe doświadczenie wiąże się z większą liczbą spalonych kalorii, niezależnie od płci.

Średnie tętno dla różnych typów treningu

Statystyki opisowe dla średniego tętna w zależności od typu treningu

Rodzaj treningu
Statystyka Yoga Cardio HIIT Trening siłowy
Min 120 120 120 120
Max 169 169 169 169
Kwartyl dolny 132 130 131 132
Mediana 142 141 145.5 144
Kwartyl górny 156 155 157 158
Średnia 143.33 143 144.44 144.24
Odch. std. 13.97 14.32 14.74 14.4
IQR 24 25 26 26
Odchylenie ćwiartkowe 12 12.5 13 13
Odch. std. w % 0.1 0.1 0.1 0.1
Odch. ćwiartkowe w % 0.17 0.18 0.18 0.18
Skośność 0.15 0.16 -0.03 0.06
Kurtoza -1.14 -1.18 -1.28 -1.22

Wyniki pokazują, że średnie tętno w różnych rodzajach treningów (joga, cardio, HIIT, trening siłowy) jest bardzo zbliżone. Średnie wartości oscylują wokół 144 uderzeń na minutę, z minimalną i maksymalną wartością wynoszącą 120 i 169. Mediana jest najwyższa w jodze i treningu siłowym (144), nieco niższa w HIIT (143) i cardio (142). Rozproszenie danych, mierzone odchyleniem standardowym, jest również podobne, wynosząc około 14, co wskazuje na umiarkowaną zmienność w każdej grupie.

Rozstęp międzykwartylowy (IQR) wynosi około 25 we wszystkich przypadkach, co potwierdza stabilność w centralnej części rozkładu. Rozkład danych jest niemal symetryczny (skośność bliska 0) i lekko spłaszczony (kurtoza od -1.21 do -1.27), co oznacza mniejszą liczbę wartości skrajnych w porównaniu do rozkładu normalnego. Ogólnie, wyniki wskazują na podobną intensywność treningową dla wszystkich analizowanych aktywności w kontekście tętna.

Zależność tętna spoczynkowego od wieku

Do wykresu wstawiono linię trendu wygładzoną, co pozwoliło uchwycić nieliniowe zależności między zmiennymi. Cień to przedział ufności, który wskazuje niepewność estymacji linii trendu. Szeroki cień oznacza większą niepewność w przewidywaniu. Wykres przedstawia zależność tętna spoczynkowego od wieku. Punkty na wykresie pokazują dużą zmienność indywidualnych wartości, jednak trend zaznaczony linią regresji wskazuje, że tętno spoczynkowe lekko spada do około 40. roku życia, a następnie nieznacznie wzrasta. Ogólnie, tętno spoczynkowe utrzymuje się w stabilnym przedziale 60–70 BPM, niezależnie od wieku, co sugeruje brak istotnych zmian w zależności od wieku u większości osób.

Statystyki opisowe dla tętna spoczynkowego w zależności od wieku

Wiek
Statystyka <30 lat 30-50 lat >50 lat
Min 50 50 50
Max 74 74 74
Kwartyl dolny 56 56 56
Mediana 62 63 62
Kwartyl górny 68 68.5 68
Średnia 62.05 62.3 62.28
Odch. std. 7.34 7.3 7.38
IQR 12 12.5 12
Odchylenie ćwiartkowe 6 6.25 6
Odch. std. w % 0.12 0.12 0.12
Odch. ćwiartkowe w % 0.19 0.2 0.19
Skośność 0 -0.13 -0.04
Kurtoza -1.2 -1.16 -1.24

Wyniki pokazują, że tętno spoczynkowe w zależności od grupy wiekowej (<30 lat, 30-50 lat, >50 lat) jest stabilne, z niewielkimi różnicami w średnich wartościach: 62,44 dla osób młodszych, 62,1 dla grupy średniej i 62,18 dla osób starszych. Wartości minimalne i maksymalne (50 i 74) są identyczne we wszystkich grupach, co wskazuje na spójność w zakresie danych.

Mediana wynosi 62 lub 63, co sugeruje, że tętno większości osób oscyluje w tym przedziale. Rozstęp międzykwartylowy (IQR) i odchylenie ćwiartkowe są zbliżone (odpowiednio 12–13 i 6–6,5), co świadczy o porównywalnej zmienności w każdej grupie wiekowej.

Rozkład danych jest lekko ujemnie skośny (-0,06 do -0,1), co oznacza, że wartości niższe od średniej są nieco częstsze, a kurtoza (od -1,2 do -1,23) sugeruje spłaszczony rozkład, co wskazuje na mniejszą liczbę wartości ekstremalnych. Ogólnie wyniki pokazują, że wiek ma niewielki wpływ na tętno spoczynkowe.

Czas trwania sesji w zależności od typu treningu

Wykres wiolinowy przedstawia rozkład czasu trwania sesji w zależności od rodzaju treningu (joga, cardio, HIIT, trening siłowy).

Największa zmienność czasu trwania widoczna jest w treningu siłowym i HIIT, gdzie czas trwania sesji jest bardziej zróżnicowany, a wartości rozkładają się szeroko w zakresie od około 0,5 do 2 godzin. Joga i cardio charakteryzują się bardziej skoncentrowanym czasem trwania sesji, ze szczytem w okolicach 1–1,5 godziny.

Średni czas trwania treningu dla wszystkich rodzajów treningów oscyluje wokół podobnych wartości, jednak rozkłady pokazują, że joga i cardio mają mniej skrajnych wartości w porównaniu do HIIT i treningu siłowego.

Statystyki opisowe dla trwania sesji w zależności od typu treningu

Typ treningu
Statystyka Yoga Cardio HIIT Trening siłowy
Min 0.51 0.55 0.52 0.5
Max 1.99 1.99 2 1.99
Kwartyl dolny 1.03 1.085 1.0275 1.0525
Mediana 1.25 1.31 1.25 1.29
Kwartyl górny 1.42 1.485 1.4425 1.4775
Średnia 1.22 1.3 1.24 1.27
Odch. std. 0.34 0.32 0.35 0.35
IQR 0.39 0.4 0.42 0.42
Odchylenie ćwiartkowe 0.19 0.2 0.21 0.21
Odch. std. w % 0.28 0.25 0.28 0.28
Odch. ćwiartkowe w % 0.31 0.31 0.33 0.33
Skośność -0.08 0.06 0.11 0.06
Kurtoza -0.36 -0.45 -0.26 -0.55

Wyniki pokazują, że czas trwania sesji treningowych jest zbliżony dla wszystkich typów treningów (joga, cardio, HIIT, trening siłowy). Minimalny czas trwania wynosi około 0,5 godziny, a maksymalny blisko 2 godzin. Średni czas trwania oscyluje między 1,23 godziny (cardio) a 1,28 godziny (joga i HIIT), co jest zbliżone do median, które również wynoszą od 1,23 do 1,29 godziny.

Rozstęp międzykwartylowy (IQR) wynosi od 0,39 (cardio) do 0,42 (joga i HIIT), co wskazuje na podobny zakres w centralnej części rozkładu. Odchylenie standardowe jest również porównywalne (od 0,33 do 0,36), co świadczy o niewielkiej zmienności czasu trwania sesji w każdej grupie. Rozkład danych jest niemal symetryczny (skośność bliska 0), a kurtoza wskazuje na lekko spłaszczony rozkład (od -0,55 do -0,25). Ogólnie, wyniki sugerują, że wszystkie typy treningów mają podobny czas trwania sesji, z niewielkimi różnicami w zmienności i kształcie rozkładu.

Częstotliwość treningów a czas trwania sesji

Wykres przedstawia zależność między liczbą sesji treningowych w tygodniu a czasem trwania pojedynczej sesji, uwzględniając poziom doświadczenia uczestników.

Wraz ze wzrostem liczby sesji w tygodniu obserwuje się tendencję do wydłużania czasu trwania pojedynczej sesji, co wskazuje na większe zaangażowanie w trening przy częstszej aktywności. Linia regresji podkreśla dodatnią korelację między tymi zmiennymi.

Kolor punktów, odpowiadający poziomowi doświadczenia, wskazuje, że osoby bardziej doświadczone (jaśniejsze punkty) częściej wykonują dłuższe sesje i trenują więcej razy w tygodniu. Wynika z tego, że zarówno liczba sesji, jak i czas ich trwania rosną wraz z doświadczeniem.

Procent tkanki tłuszczowej ciała a częstotliwość treningów

Powyższy wykres obrazuje zależności procentu tkanki tłuszczowej od częstotliwości treningów. Zależność jest odwrotnie proporcjonalna - im więcej treningów, tym mniejsza tkanka tłuszczowa działa.

Statystyki opisowe dla procentu tkanki tłusczowej w zależności od częstotliwość treningów

Częstotliwość treningów
Statystyka 2 3 4 5
Min 20 20 10 10.1
Max 35 35 34.9 19.8
Kwartyl dolny 24.8 24.7 18.625 12.4
Mediana 27.4 27.6 25.3 14.5
Kwartyl górny 29.9 30.6 28.4 16.95
Średnia 27.44 27.59 23.69 14.66
Odch. std. 3.85 3.93 6.68 2.89
IQR 5.1 5.9 9.77 4.55
Odchylenie ćwiartkowe 2.55 2.95 4.89 2.27
Odch. std. w % 0.44 0.46 0.5 0.79
Odch. ćwiartkowe w % 0.84 0.84 0.79 1.29
Skośność 0.06 -0.02 -0.39 0.12
Kurtoza -0.76 -0.87 -0.87 -1.19

Na podstawie uzyskanych wyników można stwierdzić, że wraz ze wzrostem częstotliwości treningów spada wartość minimalna i maksymalna procentu tkanki tłuszczowej. Mediana oraz średnia wartość jest zdecydowanie najmniejsza dla częstotliwości treningów wynoszącej 5 dni w tygodniu. Dla 5 dni najmniejsze są też: odchylenie standardowe oraz wartości kwartyli, co pokazuje, jak zostały pogrupowane wartości uzyskane dla tkanki tłuszczowej. Wartości skośności są bliskie zeru, co wskazuje lekką asymetryczność. Występuje zarówno lewostronna (dla 3 i 4 dni w tygodniu), jak i prawostronna (2 i 5) asymetria.

Zależnność BMI od wieku oraz typu treningu

Histogramy

Maksymalne tętno

Histogram wskazuje, że większość maksymalnych wartości tętna w badanej próbie mieści się w przedziale 165-195 BPM, co oznacza skupienie wyników w umiarkowanym zakresie tętna maksymalnego. Rozkład sugeruje, że wartości spoza tego przedziału są znacznie rzadsze.

Średnie tętno

Histogram pokazuje, że większość średnich wartości tętna w badanej próbie mieści się w przedziale 125-135 BPM, licząc niemalże 225 obserwacji. . Rozkład wskazuje na skupienie wyników w umiarkowanym zakresie tętna średniego z lekkim odchyleniem w lewą stronę.

Spoczynkowe tętno

Histogram pokazuje, że spoczynkowe wartości tętna w badanej próbie najczęściej mieszczą się w przedziale 57,5-67,5 BPM. Wyniki te wskazują na dominację umiarkowanego zakresu tętna spoczynkowego w analizowanej grupie.

Wnioskowanie

Kolejnym i ostatnim etapem naszej analizy będzie wnioskowanie statystyczne, które opierze się na przeprowadzaniu różnorodnych testów statystycznych oraz dogłębnej analizie zależności między zmiennymi. Proces ten umożliwi formułowanie uogólnionych wniosków na temat całej populacji, bazując na wynikach uzyskanych z dostępnej próby danych. Dzięki zastosowaniu odpowiednich metod statystycznych możliwe będzie nie tylko identyfikowanie istotnych różnic i korelacji, ale również weryfikacja hipotez badawczych, co przyczyni się do lepszego zrozumienia badanych zjawisk i ich kontekstu.

Porównanie spalonych kalorii w zależności od poziomu doświadczenia

Sprawdzenie normalności danych - Test Shapiro-Wilka

## 
##  Shapiro-Wilk normality test
## 
## data:  Silownia_wykresy$Calories_Burned
## W = 0.99176, p-value = 2.982e-05

Z uwagi na wartość p mniejszą od 0.05 można uznać, że dane spełniają założenia normalności i w związku z tym wykorzystać test ANOVA.

Poniższy test (ANOVA) analizuje różnice w średnich liczbach spalonych kalorii pomiędzy grupami na różnych poziomach doświadczenia. Zakłada normalność rozkładu i jednorodność wariancji, a jeśli wynik jest istotny statystycznie, oznacza, że przynajmniej jedna grupa różni się od innych pod względem średniej. Wykorzystuje również korekcję Bonferroniego dla porównań parami, aby kontrolować ryzyko błędu I rodzaju. Hipoteza zerowa zakłada, że nie ma istotnych staystycznie różnic między średnią liczbą spalonych kalorii w zalezności od poziomu doświadczenia.

Ogólny wynik testu ANOVA informuje, że wartość p jest ekstremalnie mała (znacznie poniżej typowego poziomu istotności 0,05), co oznacza, że różnice między średnimi spalonych kalorii na różnych poziomach doświadczenia są istotne statystycznie. Również wszystkie różnice między grupami są istotne statystycznie, co oznacza, że każdy poziom doświadczenia różni się istotnie od pozostałych pod względem średniej liczby spalonych kalorii.

Wyniki średnich spalalnych kalorii dla każdego z poziomów doświdaczenia pokazują, że średnia liczba spalonych kalorii rośnie wraz z poziomem doświadczenia. Eksperci spalają znacznie więcej kalorii niż średniozaawansowani i początkujący. Efekt poziomu doświadczenia na spalone kalorie jest bardzo silny - 66% wariancji w spalonych kaloriach można wyjaśnić poziomem doświadczenia, co oznacza bardzo silny efekt.

Różnice między płciami w preferencjach typów treningów

Poniższy test przeprowadza analizę proporcji danych kategorycznych, jakimi jest typ treningu w zależności od płci. Wykorzystuje test Chi-kwadrat, aby sprawdzić, czy rozkład kategorii różni się istotnie między grupami. Wizualizacja w formie wykresu kołowego przedstawia proporcje w każdej kategorii z wynikami testów statystycznych.

Hipoteza zerowa zakłada, że rozkład typów treningów jest taki sam dla kobiet i mężczyzn. Wartość p jest większa od typowego poziomu istotności 0,05, co oznacza, że nie ma podstaw do odrzucenia hipotezy zerowej.

Wartość V Cramera równa 0,01 wskazuje na bardzo słaby efekt wielkości różnic między grupami. Proporcje typów treningów (Yoga, Cardio, Strength, HIIT) są bardzo zbliżone między kobietami i mężczyznami: Dla kobiet: Yoga (27%), Cardio (28%), Strength (22%), HIIT (23%). Dla mężczyzn: Yoga (27%), Cardio (25%), Strength (25%), HIIT (23%).

Podsumowując, można zauważyć brak istotnych różnic w preferencjach typów treningów między kobietami a mężczyznami. Proporcje typów treningów są praktycznie takie same w obu grupach, co potwierdza zarówno wynik statystyczny, jak i wizualizacja.

Badanie zależności spalonych kalorii od czasu trwania sesji treningowej

Kolejny z opisywanych testów przeprowadza analizę zależności między dwoma zmiennymi ilościowymi, jakimi są: spalone kalorie i czas trwania sesji treningowej. Do analizy wykorzystano korelację Pearsona oraz przedstawioną na wykresie regresję liniową.

Współczynnik korelacji wyniósł 0,91, co wskazuje na bardzo silny dodatni związek między czasem trwania sesji a liczbą spalonych kalorii. Oznacza to, że dłuższe sesje treningowe prowadzą do większej liczby spalonych kalorii, co jest potwierdzeniem wniosków wyciągniętych na podstawie analizy statystyk opisowych. Wartość p = 0,00 sugeruje, iż zależność jest istotna statystycznie, a więc odrzucamy hipotezę zerową mówiącą o braku korelacji między zmiennymi. Statystyka testu t-studenta 67,59 (z liczbą swobody równą 973 i wartością p = 0,00) potwierdza, że współczynnik korelacji różni się istotnie od zera, co dodatkowo wskazuje na wyraźny związek między zmiennymi.

Wartość statystyki Pearsona wynosząca 0,91 pokazuje, że ok. 91% zmienności w liczbie spalonych kalorii można wyjaśnić czasem trwania sesji. Punktowy wykres rozrzutu pokazuje pozytywną zależność między zmiennymi. Punkty układają się blisko linii regresji, a więc dopasowalność modelu liniowego można określić jako dobrą.

Podsumowując, zależność między czasem trwania sesji treningowej a liczbą spalonych kalorii jest bardzo silna i istotna statystycznie. Dłuższe treningi prowadzą do spalenia większej liczby kalorii. Model liniowy dobrze opisuje tę zależność, co sugeruje, że czas trwania sesji jest jednym z kluczowych czynników wpływających na liczbę spalonych kalorii.

Różnice między wiekiem w osiąganym tętnie spoczynkowym

Test ten bada, czy istnieją istotne różnice w proporcjach BPM (BPM_Category) w zależności od grup wiekowych (Age_Category). Zarówno wartości tętna spoczynkowego jak i lata zostały zaprezentowane w przedziałach, aby lepiej zobrazować analizowane zjawisko.

To kolejny test, który wykorzystuje test Chi-kwadrat w celu weryfikacji, czy rozkład kategorii różni się istotnie między grupami. Wizualizacja w formie wykresu słupkowego przedstawia proporcje w każdej kategorii z wynikami testów statystycznych.

Wartość p większa od 0.05 (równa 0,61) oznacza, że nie ma istotnych statystycznie różnic w rozkładzie grup wartości spoczynkowego tętna między kategoriami wiekowymi. Współczynnik Cramera na poziomie 0,00 wskazuje na brak efektu wielkości różnic między grupami (relacja między zmiennymi jest bardzo słaba lub znikoma).

Dla każdej kategorii p także osiąga wartości wyższe niż 0,05, co sugeruje brak różnic w proporcjach grup wartości tętna spoczynkowego we wszystkich kategoriach wiekowych. Proporcje poszczególnych grup wartości tętna spoczynkowego w każdej kategorii wiekowej są bardzo podobne, co widać na wykresie słupkowym. Nie ma istotnych statystycznie różnic.

Zarówno globalnie, jak i lokalnie wyniki wskazują na równomierny rozkład. Zakładając hipotezę zerową, że rozkład wartości tętna spoczynkowego jest taki sam dla każdej kategorii wiekowej, nie ma podstaw do odrzucenia tejże hipotezy zerowej.

Podsumowanie

Celem naszego projektu była analiza danych pochodzących ze zbioru Siłownia. Proces ten został podzielony na kilka kluczowych etapów, obejmujących: przygotowanie danych (data wrangling), wizualizację danych, opracowanie statystyk opisowych oraz przeprowadzenie wnioskowania statystycznego.

W pierwszej fazie projektu skoncentrowaliśmy się na oczyszczeniu i przygotowaniu danych. Zbiór nie zawierał ekstremalnych odchyleń. Początkowo zidentyfikowano jednak braki danych w kolumnach: wiek, typ treningu oraz BMI. Braki w kolumnie BMI zostały uzupełnione za pomocą odpowiedniego wzoru, natomiast brakujące wartości w kolumnach wiek i typ treningu uzupełniono metodą imputacji hot deck. Po przeprowadzeniu tych operacji dokonano walidacji danych, która potwierdziła ich poprawność i brak błędów.

W kolejnych etapach zaprezentowano szereg wizualizacji, które dostarczyły wielu przydatnych i ciekawych informacji o analizowanych danych. Dodatkowo, przedstawiono statystyki opisowe, które pomogły w zrozumieniu kluczowych cech zbioru danych.

W ramach wnioskowania statystycznego przeprowadzono testy, które pozwoliły zbadać zależności między zmiennymi i wyciągnąć uogólnione wnioski dotyczące całej populacji. Wyniki analizy wykazały, że średnia liczba spalonych kalorii wzrasta wraz z poziomem doświadczenia – eksperci spalają znacznie więcej kalorii niż średniozaawansowani i początkujący. Nie zaobserwowano istotnych różnic w preferencjach typów treningów między kobietami a mężczyznami, a proporcje są zbliżone w obu grupach. Stwierdzono silną, istotną statystycznie zależność między czasem trwania treningu a liczbą spalonych kalorii – dłuższe sesje skutkują większym spalaniem. Analiza wykazała również, że proporcje grup tętna spoczynkowego w różnych kategoriach wiekowych są bardzo podobne i nie różnią się istotnie statystycznie.